加国头条 i4cc.ca ｜美国超算重超中国夺回世界第一但只能秀半年(图)

美国能源部下属橡树岭国家实验室（ORNL）6月8日发布新一代超级计算机“顶点”（Summit），其浮点运算速度峰值达每秒20亿亿次(200PFlops)，性能超过此前世界最强的中国超算“神威·太湖之光”（浮点运算峰值每秒12.5亿亿次）约60%，将帮助美国问鼎阔别近5年之久的全球超算500强榜单。

(image)

超算技术长期来被视为一个国家创新能力乃至综合国力的象征，在诸如天气预报、生命科学的基因分析、核工业、军事、航天等高科技领域发挥着至关重要的作用，因此也成为大国角力的擂台，当前竞争趋向白热化。

不过，美国“顶点”即将引领的是十亿亿次级别的争夺，而百亿亿次的“E级超算”被公认为“超算界的下一顶皇冠”，目前中、美、欧、日四强正在卯足劲向这一目标冲刺。

上月，我国在国家超算天津中心发布我国新一代百亿亿次（1000PFlops）超级计算机“天河三号”原型机，目前其综合运算能力与‘天河一号’相当，该原型机将于今年6月部署，年底正式投入使用。完整版的“天河三号”将在2020年交付，在进度上比对手暂时领先。

时隔5年，美国将重夺最强超算宝座

橡树岭国家实验室称，“顶点”使用了4608个计算服务器，每个计算服务器中又含有两个国际商用机器公司生产的22核Power9处理器和6个英伟达公司生产的Tesla V100图形处理单元加速器。使其浮点运算速度峰值可达每秒20亿亿次(200PFlops)。

(image)

(image)

“顶点”超算（橡树岭国家实验室网站图）

此前，在2017年年底公布的全球超算500榜单中，中国超级计算机“神威·太湖之光”位于榜首，其浮点运算速度峰值可达每秒12.5亿亿次(125PFlops)，持续运算速度为每秒9.3亿亿次(93.9PFlops)。

美国能源部长里克·佩里说，“顶点”超算将给能源研究、科学发现、经济竞争力和国家安全带来深远影响。

橡树岭国家实验称，“顶点”将为能源、先进材料、人工智能等领域的研究提供前所未有的运算能力，并列举天体物理学、材料学、癌症监测、系统生物学领域的科学家评论，暗示有望给这些领域的研究带来突破。

橡树岭国家实验负责人托马斯·扎卡里亚（Thomas Zacharia）说道，橡树岭国家实验从75年前成立伊始，就确立了解决国家层面重大难题的文化和传统，1988年，实验室的科学家们完成了首次G浮点（gigaflops）运算，1998年完成了首次T浮点（teraflops）运算，2008年完成了首次P浮点（petaflops）运算，2018年又完成了首次exaops计算。实验室的科学家和工程师们的开拓性研究在美国历史上发挥了关键作用，并将继续影响未来。我们期待科研用户使用“顶点”进行研究，也将继续谋求在科研领域再领先75年。

美国科技杂志《连线》报道称，今年的Top 500榜单将于本月公布。从2013年6月起，美国的超级计算机再未问鼎这一榜单，“顶点”的问世将改变中国超级计算机长期蝉联第一的局面。

“E级超算赛跑”中国暂时领先

不过，速度达到百亿亿次级别的E级超算才被公认是“超算界的下一顶皇冠”，目前，中、美、欧、日都在向这个目标全力冲刺，中国在进度上暂时处于领先位置。

新华社5月17日报道，国家超算天津中心当日对外展示了我国新一代百亿亿次超级计算机“天河三号”原型机，这也是该原型机首次正式对外亮相。据介绍，“天河三号”原型机将于今年6月部署，年底正式投入使用。

“天河三号”型机由三组机柜组成，每组机柜高2米左右，通身黑色，机身上嵌有蓝绿两条醒目的彩条，在彩条中间，“天河”两个字异常醒目。

(image)

(image)

“天河三号”原型机（新华社图）

“‘天河三号’原型机采用全自主创新，自主飞腾CPU，自主天河高速互联通信，自主麒麟操作系统，其综合运算能力与‘天河一号’相当。”天津超算中心应用研发部副部长夏梓峻介绍说。

夏梓峻表示，“天河三号”原型机将于今年6月部署在天津超算中心，年底将正式上线投入使用。“原型机的作用是为了验证‘天河三号’的技术路线。”

国家重点研发计划“高性能计算”重点专项总体专家组组长钱德沛教授表示，首套百亿亿次超级计算机预计将在2020年交付。

“‘天河一号’的运算能力已经饱和，而‘天河三号’的运算能力是‘天河一号’的200倍，存储规模是‘天河一号’的100倍（使用全新的国产Matrix 2000加速器）。计算密度、单块计算芯片计算能力、内部数据通信速率等方面也将得到极大提升。

国内现在同时启动了三大百亿亿次超算研发，分别是国防科大/天津超算中心的天河三号、中科曙光的E级超算以及江南所/济南超算中心的神威E级。以上三套百亿亿次超算中，有一条要求是共同的，那就是核心处理器必须是国产的，神威·太湖之光上已经用了国产申威SW26010处理器。

目前，全球有多个国家正竞相研发E级超算。中国计划于2020年推出首台E级超算；美国能源部启动了“百亿亿次计算项目（Exascale Computing Project）”，希望于2021年至少交付一台E级超算，其中一台的名字为“极光（Aurora）”，初步规划峰值运算能力超过每秒130亿亿次，内存超过8PB，系统功耗约为40MW。

美国在下一代超算技术方面的研发总投入将达到4.3亿多美元，用美国能源部部长里克·佩里的话说，这些资金就是剑指“下阶段研发百亿亿次系统的全球竞赛”。

此外，欧盟预计于2022年—2023年交付首台E级超算，使用的是美国、欧盟处理器，架构有可能类似ARM；日本发展E级超算的“旗舰2020计划”由日本理化所主导，完成时间也设定在2020年。

(image)

各国超算进度（风闻社区ultracold图）

憋了5年美国超算重超中国，但只能秀半年

周末最大的科技新闻，应该是美国超级计算机重夺世界第一，速度超过了中国“神威”60%。

笔者也正好借此机会向公众介绍一下超级计算机领域激烈的中美竞争。而且这应该是真正最完整和最通俗的解读了。

【美国已经落后甚至被甩开了5年】

这将是自2013年6月以来，美国首次登上超级计算机的榜首，当时它被中国广州的天河二号夺去了第一名。到2016年，中国无锡的神威-太湖之光，又以3倍的优势大幅度刷新记录，继续为中国把持着榜单首位。

(image)

在上一轮，也就是去年年底的全球超级计算机TOP500排行上，美国的最高排位已经被瑞士和日本挤到了第五位。

(image)

而在TOP500总榜单中，中国系统总数为202台，占比超过四成位居第一。美国只剩143台。中国在总体算力上也超过了美国。在TOP500的总算力中，中国占了35.4％，美国只有29.6％。

(image)

再往下的国家数字就很少了，日本35台，德国20台，法国18台，英国15台……这就是当今全球顶尖科技与商业的竞逐写照：只有中美两个大玩家。

【请不要再用人手去类比了——G的十亿级领域】

在进一步介绍之前，很有必要科普衡量现代计算机性能的基本专业参数——每秒浮点运算次数（英文缩写：FLOPS）。否则，一味地还在采用“相当于全球70亿人手按多少百亿年计算器”，实在既不直观，也难比较。

从鼻祖ENIAC的300 FLOPS开始，计算机开始了指数化发展的历程。在英文词汇与缩写里，K是千，10的3次方；M是百万，10的6次方；G是十亿，10的9次方，以此进位。

(image)

在超级计算机（简称超算）首次被中国媒体报道的80年代中期，超级计算机的速度是1 GFLOPS量级，也就是每秒十亿次浮点运算。

1983年中国造出第一台银河一号巨型计算机，每秒运算一亿次以上，也就是0.1GFLOPS。而当年全球最快的美国克雷，则是八亿次，也就是0.8GFLOPS。

放在今天，这性能大概连块电子表都不如。

(image)

【千倍性能的超算，过十几年就还不如个人玩具——T的万亿级领域】

十五年后，到了90年代末期，个人电脑上的CPU开始出现1 GFLOPS的能力，而此时全球最快的超级计算机，性能已达到了1 TFLOPS以上——T是一万亿，10的12次方。

因此个人电脑与同时代专业超算的差距，是1000倍。

(image)

而再过十五年，2014年的个人电脑CPU就有0.6 TFLOPS的能力，现在2018年的顶级手机CPU，也具备了同样的水准。

(image)

绝大部分人都不会意识到，手上小小的智能手机，竟然堪比20年前极其庞大笨重的全球最强超算，而且体积重量也缩小了1000倍。

(image)

否则，还怎么玩微信、刷视频、打游戏，以及实时美颜？那都是以接近T级的计算能力，实时算出来的！

(image)

信息科技的指数化发展，创造了无与伦比的爆炸式进步，也推动了无法想象的社会形态变革。

所以TFLOPS（万亿），才应该是讨论现代计算机的起点。否则，数据后面所列的〇和亿太多，实在超出了普通人的理解力和想象力，也脱离当下的发展现实。

【同样的，专业超算要保持比个人玩具强1000倍——P的千万亿级领域】

而主要用于游戏的显卡，由于几百个运算单元并行处理的特性，性能增长还高出一个数量级。

以目前市场上最热销、最主流的NVIDIA GTX 1060游戏显卡为例，它的成品价格是2000多元人民币，游戏单精度计算能力是4.4 TFLOPS，比传统CPU高了约10倍。

(image)

再往上，目前NVIDIA最新的顶级显卡Titan V达到了15 TFLOPS，是GTX 1060的三倍多，当然，售价也达到了两万多元。

(image)

而当TFLOPS再增长1000倍，就是PFLOPS（千万亿）。这才是当今专业超算的能力范畴——实际1个PFLOPS能力的超算，在去年底的榜单上，能排在全球183位。

(image)

【美国怎么夺回冠军的：等了整整3年】

为了夺回被中国占据的最快超算王座，早在2015年，IBM和NVIDIA就接下了美国政府的订单，要为掌管研制核武器的美国能源部所属的橡树岭国家实验室、劳伦斯利福摩尔国家实验室，分别打造20亿亿次和15亿亿次，也就是200 FLOPS和150 PFLOPS的超算。

(image)

两台超算分别命名为Summit和Sierra，总耗资约3.8亿美元。但一直要到2017年底，两家公司研制出相关核心芯片之后，才能转换为工程现实。

(image)

橡树岭国家实验室名为“顶点”（Summit）的超算，使用了4608个计算服务器节点，每个节点含有2个IBM的Power 9处理器（CPU）和6个NVIDIA（英伟达）公司生产的Tesla V100图形处理单元加速器（GPU），以及512 GB的DDR4 内存。采用效率更高的水冷散热。

(image)

NVIDIA的Tesla V100，采用台积电12纳米工艺制造，集成了210亿个晶体管，外围是32 GB内存。每个售价9000美元。

(image)

Tesla V100和民用顶级显卡Titan V同为Volta 架构，但考虑稳定性频率略低，理论计算能力为单精度14 TFLOPS，但科学计算都用双精度模式，为7 TFLOPS。

(image)

GPU接管了大部分的工作负载，但CPU仍然是数据处理的中心。IBM的POWER9，采用格罗方德（原AMD的制造部分）的14纳米工艺制造，集成了拥有80亿个晶体管。具有24核96个线程，实际使用22核。每颗售价6000美元起。

(image)

这样，单个节点拥有6块双精度7 TFLOPS的V100，理论计算能力就超过42 TFLOPS。4608个节点合起来，就是20万个TFLOPS，200个PFLOPS——用中文说就是20亿亿次。

(image)

这相当于个人电脑中高端游戏显卡的9万倍，主流CPU的90万倍。也比美国目前排名世界第五的的最强系统‘泰坦’（Titan）强8倍。

当然，比起个人电脑，一要解决大规模集成与互联并行计算，二要解决超大数据量吞吐与节点间交换，三要追求更高的效率和更高的功耗比，这就需要最先进的配件。

(image)

【只花了2亿美元？背后是几十亿美元的研制经费】

单算比例分摊，Summit的造价的确是2亿美元出头，看似并不多，在中国也就能修一公里多地铁，在美国连毛都不算。

但是，光TESLA V100及其背后的Volta 架构，就凝聚了Nvidia 7000 多名工程师超过3 年的研发，投入资金达30 亿美元。IBM的Power 9以及总体架构设计也要花差不多同样的钱。

(image)

IBM的女CEO罗睿兰（Ginni Rometty）表示：“这是我们最大的成就之一，它是最快、最智能的超级计算机。”

(image)

美国能源部长里克•佩里自豪地表示：“Summit的发布体现了美国在科学创新和技术开发方面的领导实力。它将对能源研究、科学发现、经济竞争力和国家安全有深远影响。”

(image)

【憋了5年美国超算重新超越中国，但也许只能秀半年】

另外，Summit的理论总计算能力是200 PFLOPS，也就是20亿亿次。但实测的真实计算能力还未公布，因为理论加总的总和本无法全部兑现。

(image)

中国的神威-太湖之光，理论能力125 PFLOPS，实测对兑现了93 PFLOPS，效率近75%，已经是很高的记录了。

美国之前排名第三、全球第七，能源部洛斯阿拉莫斯国家实验室的Trinity，实测效率不到32%。可见系统架构设计有问题。

(image)

美国虽然能借Summit 重回超算榜首地位，但这个宝座恐怕坐不了多久，根据中国最新的进展，恐怕到年底，中国超算就有望重新取而代之。

想必，中国超算的最新进展及其应用场景，才是广大读者真正更关心的话题。请待下篇。